# encoding=utf-8
import re

class CxExtractor:
    def __init__(self):
        self.BASE_THRESHOLD = 250
        pass

    def a_tags_num(self, raw_html_text):
        a_tags = re.findall(r'<a.*?>.*?</a>', raw_html_text)
        return len(a_tags)

    def clean_html_tags(self, raw_html_text):
        html = re.compile(r'(?is)<!DOCTYPE.*?>').sub('', raw_html_text)
        html = re.compile(r'(?is)<!--.*?-->').sub('', html)
        html = re.compile(r'(?is)<script.*?>.*?</script>').sub('', html)
        html = re.compile(r'(?is)<style.*?>.*?</style>').sub('', html)
        html = re.compile(r'&.{2,5};|&#.{2,5};').sub(' ', html)
        html = re.compile(r'(?is)<.*?>').sub('', html)
        return html

    def get_text(self, raw_html_text, k=3):

        content = self.clean_html_tags(raw_html_text).split('\n')
        blocks = list()
        for i in range(0, len(content) - 3):
            wordsNum = 0
            for j in range(i, i + k):
                block_j = re.compile('\\s+').sub('', content[j])
                wordsNum += len(block_j)
            blocks.append(wordsNum)

        start = -1
        end = -1
        boolstart = False
        boolend = False
        text = unicode()
        THRESHOLD = self.BASE_THRESHOLD
        for i in range(0, len(blocks) - 1):
            if blocks[i] > THRESHOLD and not boolstart:
                if blocks[i + 1] != 0 or blocks[i + 2] != 0 or blocks[i + 3] != 0:
                    boolstart = True
                    start = i
                    continue

            if boolstart:
                if blocks[i] == 0 or blocks[i + 1] == 0:
                    end = i
                    boolend = True

            if boolend:
                tmp_str = unicode()
                for j in range(start, end):
                    if blocks[j] < 5:
                        continue
                    line = content[j] + '\n'
                    tmp_str += line
                #if tmp_str.find('Copyright') != -1 or tmp_str.find('版权所有') != -1:
                #    continue
                text += tmp_str
                boolstart = False
                boolend = False
        return text



if __name__ == "__main__":
    raw_html = u"""
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!--[8,297,8199,14068] published at 2015-01-26 13:09:08 by feichuan--><html>
  <head>
    <meta charset="UTF-8">
    <title>威尼都入驻武清 错位佛罗伦萨小镇_商家入驻_项目资讯_商业地产_新浪网</title>
    <meta name="publishid" content="297,8199,14068">
	<meta name="keywords" content="威尼都,入驻,武清,错位,佛罗伦萨小镇">
	<meta name="description" content="威尼都入驻武清 错位佛罗伦萨小镇,房地产,房产,买房,租房,二手房,家居,装修,物业,房贷,写字楼">
	<base target='_blank'/>
    <link rel="stylesheet" type="text/css" href="http://imgcdn.house.sina.com.cn/2.0/sydichan/css/base.css">
    <link rel="stylesheet" type="text/css" href="http://imgcdn.house.sina.com.cn/2.0/sydichan/css/style.css">
    <link rel="stylesheet" type="text/css" href="http://imgcdn.house.sina.com.cn/2.0/sydichan/css/f_css.css">
    <link href="http://i2.sinaimg.cn/hs/hongliang/aweibo/weibo.css" rel="stylesheet" type="text/css">
 <base target="_blank"/>
<style type="text/css">
.mauto{margin: 0 auto;text-align:center;width:950px;}
.topNav{color: #666}
.header .wb{width: 160px;}
.F_item4 li{height:30px; overflow:hidden;}
.F_item5 .F_box1{padding-bottom:10px;}
#bjbodymatterbox{text-align:center;}
</style>
  </head>
  <body>
<div id="t00" class="mauto"></div>
    <div class="topNav">
      <div class="wrap">
         <!-- 首页导航登录通用 -->
        <div class="fr">
         <div id="userlogin">
            <a href="http://sydc.sina.com.cn/tougao.html" title="投稿">投稿</a>|<a href="http://i.house.sina.com.cn/reg_api.php" title="注册">注册</a>|<a href="http://i.house.sina.com.cn/index.php?ctrl=login&returnurl=" target="_blank" rel="nofollow" onclick="this.href+=encodeURIComponent(window.location.href);">登录</a>
          </div>
          <div id="userinfo" class="none">
<a href="http://sydc.sina.com.cn/tougao.html" title="投稿">投稿</a>|
            <span id="username">您好，乐居会员</span>
            <a id="userlogout" target="_self" href="javascript:;">[退出]</a>
          </div>
        </div>
        <!-- 标准头 -->
        <a href="http://www.sina.com.cn/" title="新浪首页">新浪首页</a><a href="http://sydc.sina.com.cn/" title="商业地产">商业地产</a><a href="http://www.xiezilou.com/" title="写字楼网">写字楼网</a><a href="http://house.sina.com.cn/" title="新浪新房">新浪新房</a><a href="http://esf.sina.com.cn/" title="新浪二手房">新浪二手房</a><a href="http://trip.house.sina.com.cn/" title="旅游地产">旅游地产</a><a href="http://haiwai.house.sina.com.cn/" title="海外地产">海外地产</a><a href="http://dichanren.fangchan.com/" title="地产人">地产人</a><a href="http://www.leju.com/" title="LEJU">LEJU</a>
      </div>
    </div>
	<!-- topNav END -->
<div id="t01" class="mauto"></div>
    <div class="wrap">
      <div class="header mb15 clearfix">
        <div class="fr">
          <!-- 微博 -->
          <div class="wb">
            <span id="wb_follow_btn"></span>
          </div>
          <!-- 微信 -->
          <div class="wxMes">
            <a href="javascript:void(0);" class="icon" id="icon"></a>
            <div class="ewmBox none" id="ewmBox"><i></i><img src="http://src.house.sina.com.cn/imp/imp/deal/f4/4e/7/32d118cfdeb44cac0ba5359331b_p1_mk1.jpg"></div>
          </div>
        </div>
         <!-- logo -->
<h1><a href="http://sydc.sina.com.cn" title="新浪商业地产">新浪商业地产</a></h1>
<div class="location">
  <p class="cityName">全国</p>
  <p class="tabCity" id="tabCity" style="cursor:pointer;">[切换城市]</p>
  <div class="cityPop none" id="cityPop">
    <div class="cPop_t">所有城市&gt;&gt;</div>
    <div class="cPop_c">
      <div class="cityBox">
        <ul>
          <a href="http://sydc.sina.com.cn/?all" target="_self">全国</a> <a href="http://sydc.sina.com.cn/bj/" target="_self">北京</a> <a href="http://sydc.sina.com.cn/yn/" target="_self">昆明</a> <a href="http://sydc.sina.com.cn/sc/" target="_self">成都</a> <a href="http://sydc.sina.com.cn/sy/" target="_self">沈阳</a> <a href="http://sydc.sina.com.cn/hz/" target="_self">杭州</a> <a href="http://sydc.sina.com.cn/wlmq/" target="_self">乌鲁木齐</a>
        </ul>
      </div>
      <!-- <div class="citySearch">
        <form>
          <input tyep="text" value="" name="" class="text">
          <input tyep="button" value="" name="" class="sub">
        </form>
      </div>-->
    </div>
    <div class="cPop_b"></div>
  </div>
</div>
      </div>
    </div>
	<!-- wrap END -->

    <div class="container F_bdt">
		<div class="content clearfix">
			<div class="main F_bor">
				<div class="F_ArtiList">
					<div class="F_title" style="border:0;">
						<a href="http://sydc.sina.com.cn/zixun/index.shtml" >资讯</a> &gt; <a href=" http://sydc.sina.com.cn/xiangmu/">项目资讯</a> &gt; <a href="http://sydc.sina.com.cn/xiangmu/ruzhu/">商家入驻</a> &gt; 正文
					</div>
					<div class="F_act clearfix">
						<div class="F_actTop clearfix">
							<a id="newFav" class="ico F_ic03" href=""></a>
							<a id="newPrint" class="ico F_ic04" href=""></a>
							<a class="ico F_ic05" href=""></a>
							<a class="ico F_ic06" href="http://sydc.sina.com.cn/RSS.xml"></a>
							<a class="ico F_ic07" href="http://service.weibo.com/share/share.php?url=http://sydc.sina.com.cn//xiangmu/2015-01-26/8199/2015/0126/14068.shtml&title=威尼都入驻武清 错位佛罗伦萨小镇&content=gb2312"></a>
						</div>
						<script>    News = window['News'] || { n_title: '十房企争夺新政后北京首宗地块' }</script>
						<div class="F_actTit">
							<h2 id="artibodyTitle">威尼都入驻武清 错位佛罗伦萨小镇</h2>
							<p>http://sydc.sina.com.cn <span class="linkRed02 m0">北京商报</span> 2015-01-26 13:09:07 <a href="http://weibo.com/u/2587691232" id="add_tblog" class="ico F_btn02"></a></p>
						</div>
						<div id="artibody" class="F_actCt">
							<div id="bjbodymatterbox">

							</div>

<p>&emsp;&emsp;北京商报讯(记者&nbsp;刘宇)在RDM集团打造的佛罗伦萨小镇光环下，曾是一片商业死水的天津武清被逐步激活。上周末，香港瑞安集团旗下瑞安建业首个奥特莱斯项目威尼都开始试营业。为了与佛罗伦萨小镇实现错位，北京商报记者走访看到，威尼都无论从定位还是业态组合都刻意避开&ldquo;邻居&rdquo;。</p>

<p>&emsp;&emsp;已经入市三年多的佛罗伦萨小镇不仅成为了武清的一张商业名牌，还开启了RDM集团的扩张之路。位于武清的这家佛罗伦萨小镇满地大牌，每逢周末顾客满盈，年销售额超过20亿元。这与赛特奥特莱斯不相上下。不过，由于业态组合相对单一，瑞安集团旗下威尼都项目找到了差异化的机遇。</p>

<p>&emsp;&emsp;在去年10月工程交接完毕后，威尼都方面开始筹备项目开业。本计划在春节后与消费者见面，但在多个品牌商的要求与催促下，上周末，威尼都开始为期3个多月的试营业。威尼都总经理助理王凯民表示，预计5月将正式投入市场。王凯民表示，威尼都项目分两期开发共10万平方米，地上地下停车场800多个。目前试营业的一期部分面积为3万平方米，不做国际名牌，以餐饮、体验消费为主，客单价为450-550元。</p>

<p>&emsp;&emsp;北京商报记者走访看到，与佛罗伦萨小镇建筑风格类似，威尼都项目形态也为意式街区。不过，主打更为亲民的Moussy、Basic&nbsp;House等品牌。从目前品牌阵容上看，威尼都仍与佛罗伦萨小镇有差距，但在餐饮、儿童娱乐业态的带动下，威尼都试营业当天仍然迎来了&ldquo;开门红&rdquo;。麦当劳、恒记甜品、正一味、咖啡陪你、ZOO&nbsp;COFFE、快乐柠檬、狗不理均为首次进驻武清的餐饮品牌。王凯民表示，威尼都项目除了面向京津冀三地客群外，将更关注本地消费者。一期项目零售与餐饮业态配比为7:3。</p>

<p>&emsp;&emsp;如果以国外&ldquo;名品+折扣&rdquo;的经营模式，威尼都距离真正意义上的奥莱还有一定差距。王凯民表示，初期经营中，威尼都主要依靠餐饮拉动零售，让消费者产生连带性消费。项目需要3-5年的培育期，将会逐步升级品牌层级。据王凯民介绍，威尼都二期将于2016年开业，届时将与佛罗伦萨小镇打通互动。</p>

<p>&emsp;&emsp;<b>市场观察</b></p>

<p><b>&emsp;&emsp;LVMH进军中国奥莱业</b></p>

<p>&emsp;&emsp;北京商报讯(记者&nbsp;王晓然)以收购&ldquo;贪吃蛇&rdquo;闻名的LVMH(路易威登集团)又通过旗下基金进入中国奥特莱斯行业。日前，LVMH旗下亚洲私募基金(L&nbsp;capital&nbsp;Asia)数亿美元入股砂之船。</p>

<p>&emsp;&emsp;在砂之船集团官网，公司以&ldquo;用艺术商业打造中国版奥特莱斯&rdquo;来定位自己，其业务包括咖啡馆、服饰店、酒廊、奥特莱斯购物广场等，其中西部奥特莱斯购物广场、杭州砂之船国际生活广场、重庆大都会购物广场一楼国际精品层在内，共有三处奥特莱斯项目。</p>

<p>&emsp;&emsp;这是LVMH首次在华投资奥特莱斯行业。砂之船首席财务官黄浩云公开表示，奥特莱斯不同于受网络冲击的传统百货，尚处在朝阳期。据了解，砂之船旗下奥特莱斯均为与品牌联营，总体扣点在15%左右，项目配套意大利购物村、儿童世界、国际美食街。2015年将建成昆明和贵阳店。</p>

<p>&emsp;&emsp;分析人士认为，L&nbsp;capital&nbsp;Asia虽为独立运作的私募基金，但因有着LVMH的奢侈品集团背景，投资奥特莱斯业务势必会带有引入品牌的优势，对LVMH来说相当于在中国有了更适宜目前国内消费趋势的渠道资源。L&nbsp;capital&nbsp;Asia则刚在2014年达成与新加坡餐饮集团合作中餐&ldquo;小笼包&rdquo;项目。</p>

<!--/enpcontent-->


						</div>
<div id="t02" class="mauto"></div>
						<!-- 分页和本页导航 -->

					<div class="F_item2">
						商业地产客服电话：400-606-6969
						<span class="F_sp1"><a id="leju_pages_save" href="">保存</a></span>
						<span id="leju_pages_change_size" class="F_sp1">
							<a href="" data-size="16">大</a>
							<a href="" data-size="14">中</a>
							<a href="" data-size="12">小</a>
						</span>
						<span class="F_sp1"><a href="" id="leju_pages_print">打印</a></span>
						<span class="F_sp1"><a href="" id="leju_pages_fullview">全文浏览</a></span>
						<span class="F_sp1"><a href="http://service.weibo.com/share/share.php?url=http://sydc.sina.com.cn//xiangmu/2015-01-26/8199/2015/0126/14068.shtml&title=威尼都入驻武清 错位佛罗伦萨小镇&content=gb2312"><i class="ico F_ico01"></i>转发此文到微博</a></span>
					</div>


					<div class="F_item3 clearfix">
						<iframe style="display:none" name="iframesydc"></iframe>
						<div id="login_box" class="F_ct01">
							<div class="F_tit">
								<span><i class="ico F_ico02"></i>新闻评论</span>
								<a id="comment_t_show1" href="">[点击查看]</a>
							</div>
							<div id="noLogin" class="F_pl">
								<p>
									<span>新浪通行证：<input id="leju_login_username" type="text" value=""></span>
									<span>密码：<input type="password" id="leju_login_password"></span>
									<span class="ml10">
										<a href="" id="leju_login_btn">登录</a><em> |</em>
										<a href="">注册</a>
									</span>
								</p>
							</div>
							<div id="login" class="F_pl2 none">
								<form id="commentForm" name="post_form" method="post" target="iframesydc" action="http://comment5.news.sina.com.cn/cmnt/submit

">
									<span class="F_dlzt">
										<span id="leju_login_user_name"></span>
										<a href="" id="leju_login_user_logout">登出</a>
									</span>
									<input type="hidden" value="fdc" name="channel">
									<input type="hidden" value="" name="jump">
									<input type="hidden" value="" name="user">
									<textarea id="CommentLoginElem" class="CommentLogin" name="content"></textarea>
									<input type="submit" value="发表评论" id="CommentBtnElem" class="F_btn03">
									<input type="hidden" value="lejucms-8-297-8199-14068" name="newsid">
								</form>
							</div>
						</div>
					</div>

					</div>
					<div class="part_2 F_item4">
					  <h3 class='part_tit mb10'><span>相关新闻</span></h3><ul><li><a href='http://sydc.sina.com.cn/shangye/2014-02-12/8199/2014/0212/10865.shtml'>国内奥莱去年总业绩约220亿 10家单店过7亿</a></li><li><a href='http://sydc.sina.com.cn/dichan/2013-08-14/8199/2013/0814/9273.shtml'>重庆解放碑商圈扩容：大商场超15家 奥莱欲分羹</a></li><li><a href='http://sydc.sina.com.cn/fangtan/2013-06-05/8199/2013/0605/7915.shtml'>万文英：奥莱中国 十年恍如一瞬</a></li><li><a href='http://sydc.sina.com.cn/shangye/2013-06-05/8199/2013/0605/7911.shtml'>新奇特成奥莱吸金法宝 商业项目市场需细分</a></li><li><a href='http://sydc.sina.com.cn/xiangmu/2013-05-30/8199/2013/0530/7775.shtml'></a></li><li><a href='http://sydc.sina.com.cn/fangtan/5/2013/0522/7486.shtml'>首创奥特莱斯袁泽路：奥莱不能被业态束缚</a></li><li><a href='http://sydc.sina.com.cn/dichan/5/2013/0118/5864.shtml'>寇萍阐述燕莎奥莱的成功之道:本土化,低成本创新</a></li><li><a href='http://sydc.sina.com.cn/dichan/5/2012/1105/4512.shtml'>首创奥莱再度延期开业</a></li></ul>
					</div>
				</div>
			</div>
			<!-- main END -->
			<div class="siderbar F_borNo">
<div id="b01"></div>
				<div class="part_2 F_item4 mb15 ml10">
				  <h3 class="part_tit mb10"><span>推荐阅读</span></h3>
					 <ul>
						<li><a href="/dichan/2015-01-26/8199/2015/0126/14067.shtml" title="扩张无力或因受累地王 证大房产陷退市传闻">扩张无力或因受累地王 证大房产陷退市传闻</a></li><li><a href="/shangye/2015-01-26/8199/2015/0126/14065.shtml" title="家乐福遭遇中国困局 分拆上市能否成为救命稻草">家乐福遭遇中国困局 分拆上市能否成为救命稻草</a></li><li><a href="/dichan/2015-01-26/8199/2015/0126/14064.shtml" title="绿地计划2015对外再投100多亿美元">绿地计划2015对外再投100多亿美元</a></li><li><a href="/shangye/2015-01-26/8199/2015/0126/14063.shtml" title="购物中心不惜降租招揽品牌餐饮入住">购物中心不惜降租招揽品牌餐饮入住</a></li><li><a href="/xiangmu/2015-01-26/8199/2015/0126/14062.shtml" title="佛罗伦萨小镇高调开业 奥特莱斯在华前景几何">佛罗伦萨小镇高调开业 奥特莱斯在华前景几何</a></li><li><a href="/2015-01-26/8199/2015/0126/14061.shtml" title="新一轮购海外房产热显现 澳洲地产营销升温">新一轮购海外房产热显现 澳洲地产营销升温</a></li><li><a href="/haiwai/2015-01-26/8199/2015/0126/14060.shtml" title="中国房企海外置业势头凶猛 纽约成商业地产龙头">中国房企海外置业势头凶猛 纽约成商业地产龙头</a></li><li><a href="/haiwai/2015-01-26/8199/2015/0126/14059.shtml" title="中资海外地产投资出现五大新趋势">中资海外地产投资出现五大新趋势</a></li><li><a href="/haiwai/2015-01-26/8199/2015/0126/14058.shtml" title="地产商主导中国海外投资 6年后投资额直奔3000亿">地产商主导中国海外投资 6年后投资额直奔3000亿</a></li><li><a href="/fangtan/2015-01-23/8199/2015/0123/14057.shtml" title="王府井郑万河：百货没过气">王府井郑万河：百货没过气</a></li>
					</ul>
				</div>
				<div class="part_2 F_item4 ml10 mt15">
					 <!-- 新版推荐招商项目 -->
<h3 class="part_tit mb10"><a class="F_btn04" href="http://data.sydc.sina.com.cn/commerce.html">更多>></a><span>推荐招商项目</span></h3>
<div class="F_item5">
<div class="F_box1 clearfix">
<a class="F_l3" href=""><img src="http://i1.sinaimg.cn/hs/2012/0305/U5390P1319DT20120305094549.jpg" alt=""></a>
<div class="F_r3">
<h3><a href="http://data.sydc.sina.com.cn/bj/s48219.html">【首地大峡谷】</a></h3>
<p>商圈：木樨园<br>开业：2009年<br>租金：25元/平米/天<br>物业：66元/平米/月</p>
</div>
</div>
<div class="F_b3">
<p><a class="F_btn05" href="http://data.sydc.sina.com.cn/commerce.html?city_en=wh&field=city_en&showall=0">武汉<em>|</em></a><a class="F_link10" href="http://data.sydc.sina.com.cn/wh/s69951.html">海昌-极地海洋世界</a><a  class="F_link10" href="http://data.sydc.sina.com.cn/wh/s12756.html">光谷步行街</a></p>
<p><a class="F_btn05" href="http://data.sydc.sina.com.cn/commerce.html?city_en=sh&field=city_en&showall=0">上海<em>|</em></a><a class="F_link10" href="http://data.sydc.sina.com.cn/sh/s61434.html">沁乐时尚广场</a><a  class="F_link10" href="http://data.sydc.sina.com.cn/sh/s89791.html">城开中心</a></p>
<p><a class="F_btn05" href="http://data.sydc.sina.com.cn/commerce.html?city_en=tj&field=city_en&showall=0">天津<em>|</em></a><a class="F_link10" href="http://data.sydc.sina.com.cn/tj/s70195.html">银河国际购物中心</a><a  class="F_link10" href="http://data.sydc.sina.com.cn/tj/s89841.html">龙湾城</a></p>
</div>
</div>

				</div>
				<!-- part_2 END -->
<div id="b02"></div>
				<div class="part_2 ml10">
				  <div class="F_tga01 clearfix">
	<a id="tab1" class="cur" href="">周排行</a>
	<a id="tab2" href="">月排行</a>
</div>
<ul id="content1" class="part2_list clearfix">
	<li class="on"><i>1</i><a href="/xiangmu/2015-01-26/8199/2015/0126/14062.shtml" title=".-1.">佛罗伦萨小镇高调开业 奥特莱斯在华前景几何</a></li><li class="on"><i>2</i><a href="/haiwai/2015-01-26/8199/2015/0126/14060.shtml" title=".-1.">中国房企海外置业势头凶猛 纽约成商业地产龙头</a></li><li class="on"><i>3</i><a href="/dichan/2015-01-26/8199/2015/0126/14064.shtml" title=".-1.">绿地计划2015对外再投100多亿美元</a></li><li><i>4</i><a href="/shangye/2015-01-26/8199/2015/0126/14063.shtml" title=".-1.">购物中心不惜降租招揽品牌餐饮入住</a></li><li><i>5</i><a href="/haiwai/2015-01-26/8199/2015/0126/14058.shtml" title=".-1.">地产商主导中国海外投资 6年后投资额直奔3000亿</a></li><li><i>6</i><a href="/haiwai/2015-01-26/8199/2015/0126/14059.shtml" title=".-1.">中资海外地产投资出现五大新趋势</a></li><li><i>7</i><a href="/shangye/2015-01-26/8199/2015/0126/14066.shtml" title=".-1.">温州“鞋都”落寞的背后</a></li><li><i>8</i><a href="/2015-01-26/8199/2015/0126/14061.shtml" title=".-1.">新一轮购海外房产热显现 澳洲地产营销升温</a></li><li><i>9</i><a href="/dichan/2015-01-26/8199/2015/0126/14067.shtml" title=".-1.">扩张无力或因受累地王 证大房产陷退市传闻</a></li><li><i>10</i><a href="/shangye/2015-01-26/8199/2015/0126/14065.shtml" title=".-1.">家乐福遭遇中国困局 分拆上市能否成为救命稻草</a></li>
</ul>
<ul id="content2" class="part2_list clearfix none">
	<li class="on"><i>1</i><a href="/shangye/2015-01-14/8199/2015/0114/13966.shtml" title=".-1.">京津冀一体化带动北京周边商业繁荣</a></li><li class="on"><i>2</i><a href="/shangye/2015-01-13/8199/2015/0113/13938.shtml" title=".-1.">天猫试水“T2O” 《何以笙箫默》服装即看即买</a></li><li class="on"><i>3</i><a href="/dichan/2015-01-06/8199/2015/0106/13878.shtml" title=".-1.">中国房地产市场2014年总结及2015年主要趋势</a></li><li><i>4</i><a href="/huodong/2015-01-18/8199/2015/0118/14010.shtml" title=".-1.">2015亚太酒店新品牌加盟连锁竹林大会</a></li><li><i>5</i><a href="/shangye/2015-01-12/8199/2015/0112/13924.shtml" title=".-1.">李嘉诚父子再度抛售内地物业 李家1年套现数百亿</a></li><li><i>6</i><a href="/2015-01-12/8199/2015/0112/13934.shtml" title=".-1.">2015年成都即将新开的10大项目 奢华又任性！</a></li><li><i>7</i><a href="/shangye/2015-01-05/8199/2015/0105/13842.shtml" title=".-1.">星巴克或彻底失去初心它会成为下一个麦当劳吗？</a></li><li><i>8</i><a href="/shangye/2015-01-15/8199/2015/0115/13989.shtml" title=".-1.">京东年内将开500家实体店布局县域</a></li><li><i>9</i><a href="/dichan/2015-01-12/8199/2015/0112/13931.shtml" title=".-1.">北京动批首家市场摘牌闭市 300多家商户将搬离</a></li><li><i>10</i><a href="/dichan/2015-01-09/8199/2015/0109/13923.shtml" title=".-1.">2015中国写字楼市场将现大规模新增供应</a></li>
</ul>
				</div>
				<!-- part_2 END -->
<div id="b03"></div>
			</div>
			<!-- siderbar END -->
		</div>
		<!-- content END -->


    </div>
	<!-- container END -->
<div id="t03" class="mauto"></div>
    <div class="footer">
      <div id="footer" style="text-align:center"> <a href="http://sydc.sina.com.cn/about.html">关于我们</a>┊ <a href="http://sydc.sina.com.cn/partner.html">合作伙伴</a>┊ <a href="http://sydc.sina.com.cn/lawyer.html">网站律师</a>┊ <a href="http://i.house.sina.com.cn/index.php?ctrl=register">会员注册</a>┊ <a href="http://sydc.sina.com.cn/feedback.html">意见反馈</a>┊ <a href="http://sydc.sina.com.cn/job.html">诚聘英才</a><br />
Copyright @ 1996-2014 SINA Corporation, All Rights Reserved<br />
新浪商业地产产品用户服务、产品咨询购买、技术支持客服服务热线：400-606-6969 </div>
    </div>
	<!-- footer END -->
  <script type="text/javascript" src="http://www.sinaimg.cn/hs/suxiaowu/helper/helper.loader.js"></script><!-- START OF SmartSource Data Collector TAG -->
<SCRIPT SRC="http://traffic.house.sina.com.cn/dichan_5w4x_tag.js" TYPE="text/javascript"></SCRIPT>
<!-- END OF SmartSource Data Collector TAG -->
</body>
  <script type="text/javascript" src="http://imgcdn.house.sina.com.cn/2.0/sydichan/scripts/LET_sydc.js"></script>
  <script type="text/javascript" src="http://imgcdn.house.sina.com.cn/2.0/sydichan/scripts/sydc_index.js"></script>
<form action="http://data.sydc.sina.com.cn/news_stat/api/input_record.php" target="post-iframe"
id="page-form" method="post" style="display:none;">
<input name="from" value="biz"/>
<input name="nid" value="14068"/>
<input name="pid" value="297"/>
<input name="tid" value="8199"/>
<input name="city" value="sydc"/>
<input name="title" value="威尼都入驻武清 错位佛罗伦萨小镇"/>
<input name="column" value="项目资讯"/>
<input name="lower_column" value="商家入驻"/>
<input name="page_address" value="/xiangmu/2015-01-26/8199/2015/0126/14068.shtml"/>
<input name="mdate" value="2015-01-20"/>
</form>
<iframe id="post-iframe" style="display:none;" name="post-iframe"></iframe>
<script>
if(parseInt('1')) document.getElementById("page-form").submit();
</script>
<script type="text/javascript" src="http://imgcdn.house.sina.com.cn/2.0/page/sydc/contents.js" charset="UTF-8"></script>
<script src="http://tjs.sjs.sinajs.cn/open/api/js/wb.js?appkey=3947811375" type="text/javascript" charset="utf-8"></script>
<script type="text/javascript">
      WB2.anyWhere(function(W){
        W.widget.followButton({
          'id': "wb_follow_btn",  //关注按钮容器ID
          'nick_name': '新浪商业地产' //用户昵称
        });
      });

</script>
<script type="text/javascript" src="http://imgcdn.house.sina.com.cn/2.0/ads/cmslead_new.js"></script>
<script type="text/javascript">
ads.config = {
    host:'http://www.sinaimg.cn/',
    path:'hs/ouyi/lead/src/',
                lunxunList:[]
};
</script>
<script type="text/javascript" src="http://adm.leju.sina.com.cn/get_ad_list/PG_5451A63BC04C15?callback=ads.processReqChange"></script>
</html>
"""
    cx_extractor = CxExtractor()
    print cx_extractor.get_text(raw_html)